ارئه روشی نوین جهت طبقه بندی متون فارسی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه اراک - دانشکده کامپیوتر و فناوری اطلاعات
- نویسنده محسن پیرحیاتی
- استاد راهنما محسن رحمانی وحید رافع
- سال انتشار 1393
چکیده
متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلمات از خبر متن خبر به توکن هایی از کلمات شکسته می شود. در پیش پردازش، داده هایی که هیچ اطلاعات مفیدی درباره کلاس یک خبر ندارند حذف می شوند. گام های مورد نیاز برای پیش پردازش به ریشه یابی و حذف کلمات stop word تقسیم می شوند. برای استخراج ویژگی، روشهای تکرار سند و icf-uni بکار گرفته شده است. برای نمایش بردار ویژگی برای هر خبر از tfو tf-idf استفاده شده است.برای وزن دهی مجدد به بردار ویژگی روش جدیدی با استفاده از ارتباط بین ویژگی ها و موضوع خبر ارائه شده است. برای طبقه بندی متون نیز از الگوریتم های k نزدیک ترین همسایه و رده بندی بیزین چند متغیره با tf استفاده شده است. در این پایان نامه از مجموعه داده های همشهری که شامل بیش از 318 هزار مقاله در زمینه های مختلف (علمی ،اقتصادی ،سیاسی ،ادبی،ورزشی و غیره ) می باشد برای ارزیابی نتایج استفاده شده است. پیاده سازی روش پیشنهادی با ارائه آنتروپی در پیش پردازش برای حذف کلمات حشو و همچنین وزن دهی مجدد ویژگی ها موجب بهبود در نتایج کلی شده است و در بهترین حالت بازشناسی، اخبار اقتصادی با 30 درصد بوده است.
منابع مشابه
سیستم شناسایی و طبقه بندی اسامی در متون فارسی
Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...
متن کاملروشی نوین برای دسته بندی متون فارسی با استفاده از قواعد انجمنی
امروزه مدیریت مبتنی بر محتوای متون، به علت رشد سریع و در دسترس قرار گرفتن متون به شکل دیجیتالی، از اهمیت زیادی برخوردار است. از طرفی دیگر یکی از روش های مهم در سازمان دهی اطلاعات، دسته بندی اسناد زبان طبیعی در دسته های از قبل مشخص شده است. با توجه به اهمیت موضوع و کاری که در این زمینه برای زبان های دیگر دنیا انجام شده است، نیاز به دسته بندی متون فارسی به خوبی احساس می شود. در سال های اخیر، الگو...
روشی نوین به منظور طبقه بندی داده های چند بازگشتی لایدار با استفاده از اطلاعات هندسی مجاورتی و فضای پدیده
دادههای اخذ شده توسط سیستمهای لیزر اسکنر هوایی به دلیل برخورداری از مزایایی نظیر دقت هندسی نسبتاً بالا و تراکم مکانی بالای نقاط، اطلاعات هندسی متنوع و منحصر به فردی از سطوح فیزیکی عوارض فراهم میآورند. طبقهبندی و تفکیک داده<...
متن کاملارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده میشود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند میتواند در یک، چند و یا هیچ دستهای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار میگیرد. این موضوع میتواند در قالب یک ی...
متن کاملارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار می گیرد. این موضوع می تواند در قالب یک ی...
متن کاملارائه روشی نوین جهت محاسبه تلفات سالیانه شبکه های توزیع
یکی از مسائل حائز اهمیت در شبکههای توزیع، مسئله تلفات این شبکهها میباشد. تابع تلفات سالیانه انرژی عمدتاً جزء توابع اصلی در مسائل مربوط به بهرهبرداری و توسعه بهینه شبکههای توزیع است. جهت محاسبه تلفات سالیانه انرژی شبکه توزیع نیاز انجام محاسبات پخش بار در کلیه ساعات سال است، که این موضوع نیازمند حجم و زمان بالای محاسبات است. در این مقاله با استفاده از مدل بار شبکه IEEE-RTS، یک مدل بار جدید تح...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه اراک - دانشکده کامپیوتر و فناوری اطلاعات
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023